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摘 要: 为 快速 准确 获取 玉米 收获 过 程 中 遗失 籽粒 数 信息 ， 进 行 收 割 损 失调 节 等 管理 ， 对 比 评估 了 单 阶段 
和 两 阶段 主流 目标 检测 网 络 对 田间 玉米 籽粒 计数 的 性 能 。 首 先 ， 利 用 RGB 相机 获取 包含 不 同 背 景 和 不 同 光 
照 的 图 像 数 据 ， 并 进一步 生成 数据 集 ; 其 次 ,构建 籽粒 识别 的 不 同 目 标 检测 网 络 ， 包 括 Mask R- 
CNN、EfficientDet-D5、YOLOv5-L、YOLOX-L， 并 利用 所 采集 的 420 幅 有 效 图 像 对 构建 的 四 种 网 络 进 行 训练 、 
验证 、 测 试 ， 图 像 数 分 别 为 200、40 和 180 幅 ; 最 后 ， 依 据 测 试 集 图 像 的 识别 结果 进行 籽粒 计数 性 能 评价 。 
试验 结果 表明 ，YOLOv5-L 网 络 对 测试 集 图 像 检 测 的 平均 精度 为 78.3%， 模 型 尺寸 仅 为 89.3 MB; 籽粒 计数 的 
检测 正确 率 、 漏 检 率 和 已 值 分 别 为 90.7%、9.3% 和 91.1%， 处 理 速 度 为 55.55 f/s， 识 别 与 计数 性 能 均 优 于 
Mask R-CNN EfficientDet-D5 和 YOLOX-L 网 络 ， 并 对 具有 不 同 地 表 遮 挡 程 度 和 籽粒 聚集 状态 的 图 像 具 有 较 
强 的 鲁 棒 性 。 深 度 学 习 目 标 检测 网 络 YOLOv5-L 可 实现 实际 作业 中 玉米 收获 损失 籽粒 的 实时 监测 ， 精 度 高 、 
适用 性 强 。 
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1 引 Ë 高 ， 开 展 玉米 田间 收获 闻 粒 损失 监测 研究 ， 对 评 
l 估 联 合 收获 机 作业 性 能 ， 实 现 损 失 自 主 调节 ， 保 
玉米 作为 传统 粮食 作物 之 一 ， 因 其 兼 具 。 障 粮食 实 收 产量 等 具有 重大 意义 。 


“ 粮 - 经 - 饲 ”等 多 元 属性 ,已 成 为 世界 上 种 植 面 目前 玉米 收获 损失 主要 是 基于 传感器 进行 检 
积 最 广 和 贸易 量 最 大 的 农作物 "。 相 比 于 水 稻 和 。” 测 ， 即 通过 安装 在 收割 机 不 同位 置 ( 即 清 选 第 或 
小 麦 ， 玉 米 机 械 收获 过 程 中 籽粒 损失 率 相对 较 。“ 排 草 口 ) 处 的 传感器 (如 光 、 声 音 、 微 波 、 压 电 陶 
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咨 、 压 电 薄 膜 等 ) 来 获取 籽粒 冲击 感应 板 的 频率 、 
幅 值 等 信号 特征 ， 并 借助 信号 处 理 、 机 器 学 习 等 
方法 构建 损失 籽粒 预测 模型 ， 以 实现 田间 玉米 收 
获 损失 率 的 实时 监测 “ 3。 但 受 籽粒 冲击 角度 、 
速度 差异 等 因素 的 影响 ， 实 际 检测 中 易 造 成 误 识 
别 ， 且 受 敏感 材料 自 映 特性 (安装 位 置 、 灵 敏 
度 、 有 效 区 域 范 围 等 )、 作 物 状 态 以 及 收割 机 作业 
工 况 ， 如 喂 和 人 量 、 草 谷 比 、 行 进 速度 、 滚 简 转 速 等 
因素 的 影响 ,在 依据 单一 环节 (夹带 和 清 选 等 ) 
的 监测 佑 计 最 终 的 收获 损失 时 ， 其 结果 可 靠 性 不 
高 。 因 此 ， 受 各 项 复杂 因素 联合 影响 的 传感器 检 
测 方法 难以 满足 实际 作业 中 对 玉米 收获 损失 率 监 
测 的 精准 、 高 效 需求 ， 吸 需 一 种 能 够 直接 、 快 速 
对 玉米 收获 时 损失 将 粒 进行 精准 计数 的 方法 。 

机 需 视 觉 技术 应 用 于 玉米 籽粒 品质 分 级 、 质 
量 佑 计 以 及 损伤 检测 的 研究 验证 了 其 用 于 将 粒 识 
别 的 可 行 性 “ 。 基 于 此 ， 研 究 者 提出 了 利用 图 
像 处理 进 行 谷 物 收获 损失 检测 的 方法 “”， 即 通 
过 灰 度 化 、 去 品 、 分 割 等 方法 检测 谷物 籽粒 ， 并 
结合 对 谷物 籽粒 形状 、 颜 色 、 面 积 等 属性 的 分 析 
完成 收获 将 粒 的 损失 计数 。 但 受 阔 值 不 一 致 及 图 
像 自身 差异 的 影响 ， 籽 粒 计数 结果 的 可 靠 性 和 稳 
定性 不 高 ， 并 仍 以 收获 过 程 中 茶 一 环节 (脱粒 、 
清 选 等 ) 的 损失 检测 为 主 ， 忽 略 了 对 直接 反映 收 
获 损失 的 田间 地 表 籽 粒 的 检测 。 随 着 深度 学 习 目 
标 检测 技术 的 进步 ， 其 在 提高 物体 检测 精度 、 效 
率 、 鲁 棒 性 等 方面 表现 出 了 极 大 潜力 "。 为 此 ， 
Monhollen 等 “提出 了 采用 目标 检测 网 络 直接 识 
别 田间 地 表 将 粒 的 损失 评 佑 方法， 并 开发 了 相应 
的 图 像 采 集 平 台 ， 达 到 了 82% 的 损失 检测 精度 。 
但 在 图 像 采集 前 ， 需 对 残余 物 进 行 清除 以 显露 玉 
米 籽 粒 ， 操 作 繁 瑞 ， 且 计数 精度 受 残余 物 清 除 程 
度 的 影响 。 由 上 述 分 析 可 知 ， 现 有 检测 方法 的 精 
度 、 适 用 性 等 与 实际 作业 的 理想 需求 仍 有 一 定 差 
距 ， 而 深度 学 习 的 使 用 使 得 玉米 收获 损失 监测 精 
度 有 了 进一步 提升 的 可 能 。 

因此 ， 本 研究 的 主要 目的 是 评估 深度 学 习 技 
术 直 接 进 行 真 实地 表 籽 粒 计数 的 可 行 性 与 表现 ， 


以 简化 收获 损失 检测 步 又， 实现 监测 精度 与 适用 
性 的 综合 提升 。 本 研究 的 主要 工作 包括 : (1) 利 
用 RGB 相机 采集 玉米 收获 后 的 真实 地 表 图 像 数 
据 ; (2) 构建 两 阶段 目标 检测 网 络 掩 膜 区 域 卷 积 
神经 网 络 (Mask Regions Convolutional Neural 
Network, Mask R-CNN) 和 单 阶段 目标 检测 网 络 
EfficientDetD5、YOLOv5-L、YOLOX-L 进行 玉 
米 籽粒 计数 ; (3) 分 析 不 同 地 表 遮 挡 程 度 和 籽粒 
聚集 状态 等 场景 及 网 络 类 别 对 最 终 计数 性 能 的 影 
响 ， 并 总 结 出 用 于 田间 玉米 收获 损失 籽粒 计数 的 
最 优 深 度 学 习 模 型 。 


2 材料 与 方法 


2.1 图 像 采 集 


供 试 数据 采集 于 美国 北 达 科 他 州 大 福克斯 县 
(North Dakota，Grand Forks，US) 的 玉米 试验 
田 ， 拍 摄 对 象 为 收获 时 遗留 地 表 的 玉米 籽粒 。 为 
避免 收割 过 程 中 秸秆 烟尘 影响 图 像 采 集 质量 ， 在 
联合 收获 机 (John Deere X Series, Moline, IL, 
US) 完成 玉米 收获 后 ， 由 研究 人 员 手 持 佳能 
EOS Rebel T7i 型 相机 〈 图 像 分 辨 率 2000 久 2000， 
帧 率 6 fs, 自动 曝光 、 自 动 对 焦 模 式 ) 在 距 地 面 
约 1.3 m 的 垂直 高 度 对 收割 之 后 的 地 面 进 行 拍摄 ， 
田间 收获 场景 与 图 像 采集 设备 如 图 1 所 示 。 样 本 
采集 时 间 为 2020 年 11 月 7 日 上 午 8:00 一 11:00， 
共 获 取 500 幅 图 像 。 


2.2 技术 路 线 


本 研究 旨 在 使 用 深度 学 习 算 法 对 采集 图 像 进 
行 分 析 ， 实 现 对 田间 玉米 籽粒 的 自动 检测 与 计 
数 。 计 数 方法 流程 如 图 2 所 示 ， 主 要 包含 3 个 环节 : 

(1) 构建 数据 集 : 筛选 采集 图 像 有 效 帧 ， 对 
其 进行 场景 分 类 和 籽粒 标注 ， 以 构建 玉米 籽粒 目 
标 检测 数据 集 。 

(2) 玉米 籽粒 计数 : 构建 并 训练 用 于 籽粒 目 
标 检 测 的 不 同 网 络 模型 ， 以 实现 田间 玉米 收获 损 
FAP LAT SEAT PRE 

(3) 结果 分 析 : 对 可 视 化 模型 训练 过 程 及 结 
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(a) 田 间 玉 米 收获 场景 
Al 田间 玉米 收获 场景 与 地 面 图 像 采 集 示 意图 


1.3m 


(b) 地 面 图 像 采集 


Fig. 1 Infiled corn harvest combine in working mode and schematic for image acquisition 


果 进 行 分 析 ， 在 测试 集 上 对 不 同 模型 方法 进行 评 
估 ， 并 推荐 最 优 模型 。 


数据 采集 
a EE ļ---=7 AWA ANP 
筛选 图 像 有 效 由 | paste 

l 


! 了 


| 
1 EREE ANVAN T., 0, 
数据 集 | Labelme 标 注 图 像 i TANET% 地 表 裸 露 ，SR>85% 


地 表 半 遮挡 : 35<SR<85% 


粒 聚 集 状 态 ， 将 180 幅 测 试 集 图 像 划分 为 4 类 
(图 3): 地 表 裸 露 (60 幅 ，1415 个 玉米 籽粒 )、 
地 表 半 遮挡 (60 幅 ，1372 个 玉米 籽粒 )、 地 表 全 
遮挡 (31 幅 ，218 个 籽粒 ) 和 籽粒 聚集 (29 幅 ， 
1916 个 籽粒 )。 其 中 ， 地 表 裸 露 、 地 表 半 迟 挡 和 
地 表 全 遮挡 分 别 指 场景 内 地 表 像 素 与 网 像 总 像素 
比值 在 (0.85, 1) [0.35, 0.85] 和 (0, 0.35) 区 


| 地 表 全 遮挡 : SR<35% 


地 表 裸 露 程度 


籽粒 聚集 籽粒 黏 连 堆积 


间 的 图 像 ， 且 玉米 籽粒 之 间 相 互 离散 ; 籽粒 聚集 


1 [而 练 开 测试 不 同 下 
P| 标 检测 网 络 模型 
J 


两 阶段 : Mask R- CNN 


单 阶段 :EffficientDet， 
YOLOvS5, YOLOX 


训练 结果 可 视 化 
1 | 模型 计数 精度 对 比 


注 :SR 是 指 地 表 像 素面 积 占 比 
图 2 田间 玉米 籽粒 计数 的 整体 技术 路 线 图 


Fig. 2 General technical route for corn kernel counting 


2.2.1 数据 集 构建 

为 保证 采集 图 像 有 效 性 以 便 模型 训练 与 测 
试 ， 通 过 人 工 筛选 出 含有 玉米 籽粒 且 视 野 清晰 的 
420 幅 图 像 (包含 6773 个 玉米 籽粒 ) 作为 总 数据 
集 。 随 机 选取 200 幅 图 像 (包含 1628 个 玉米 籽 
粒 ) 作为 训练 集 ， 其 余 40 幅 (包含 224 个 玉米 籽 
粒 ) 和 180 幅 (包含 4921 个 玉米 籽粒 ) 分 别 作为 
验证 集 和 测试 集 ， 其 中 验证 集 用 以 调节 训练 模型 
的 超 参数 ， 避 免 过 拟 合 。 使 用 Labelme 软件 进行 
数据 标注 ， 并 按照 COCO (Common Objects in 
COntext) 格式 构建 目标 检测 数据 集 。 最 后 为 准 
确 评估 网 络 模型 的 适用 性 及 其 对 收获 减损 的 指导 
性 能 ， 依 据 田 间 秸 秆 对 地 表 的 遮挡 程度 和 玉米 籽 


通常 是 指 相互 茜 连 和 堆 秋 的 籽粒 数 大 于 12 个 的 图 
像 。 场 景 命名 中 的 谈 挡 是 指 秸秆 对 地 表 的 遮挡 。 
2.2.2 方法 设计 

为 避免 传统 目标 检测 算法 存在 的 识别 准确 率 
低 、 模 型 适用 性 差 、 特 征 依赖 性 强 等 问题 六， 
选取 优势 明显 且 应 用 广泛 的 深度 学 习 网 络 对 获取 
的 图 像 进 行 检测 ， 以 简化 特征 设计 、 区 域 选 择 的 
繁琐 过 程 ， 减 少 人 工 构 建 特征 的 有 效 性 、 和 鲁 棒 性 
对 检测 精度 与 效率 的 有 影响， 实现 玉 米 籽 粒 的 高 精 
度 实时 检测 。 由 于 基于 深度 学 习 的 目标 检测 算法 
可 分 为 基于 区 域 建议 的 两 阶段 方法 和 基于 回归 分 
析 的 单 阶段 方法 。 因 此 为 对 比 两 类 方法 在 籽粒 检 
测 任务 中 的 适用 性 ,分 别 从 两 类 方法 中 选取 网 
络 。 对 于 两 阶段 方法 而 言 ， 现 有 的 R-CNN、 空 间 
金字 塔 池 化 网 络 (Spatial Pyramid Pooling Network, 
SPP-Net), Fast R-CNN Faster R-CNN 等 网 络 的 
性 能 均 低 于 具备 目标 检测 与 分 割 双重 功能 的 
Mask R-CNN 网 络 ,日 不 考虑 目标 分 割 效果 
时 ， Mask R-CNN 与 Faster-RCNN 的 功能 一 
致 "中 ， 故 选用 Mask R-CNN 网 络 作为 单 阶段 方法 
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(a) 地 表 裸 露 (b) 地 表 半 遮挡 


(OFERE 


(c) 地 表 全 遮挡 


图 3 不 同 选 挡 及 王 米 籽粒 聚集 程度 的 图 像 示 僻 


Fig.3 Image samples with different occlusion and corn kernel aggregation degree 


的 对 照 网 络 。 而 单 阶段 方法 作为 目标 检测 算法 的 
主流 方向 ， 研 究 者 已 通过 改进 特征 提取 网 络 、 多 
尺度 融合 机 制 、 标 签 分 配 策略 以 及 NMS-Free 检 
测 需 等 提出 了 不 同 的 网 络 模型 ， 并 以 YOLO 系列 
最 为 经 典 和 高 效 ， 故 依据 模型 参数 量 、 平 均 精 度 
等 指标 从 该 系列 网 络 中 选取 了 在 标准 图 像 集 CO- 
CO 下 检测 性 能 较 优 的 YOLOv5 和 YOLOX 网 络 
来 对 比 有 无 锚 框 时 的 模型 泛 化 性 。 此 外 还 选取 了 
EfficientDet 网 络 来 评估 在 固定 资源 限制 下 通过 对 
网 络 深度 、 宽 度 、 分 辨 率 进 行 统一 缩放 实现 玉米 籽 
粒 检测 精度 与 效率 平衡 的 可 行 性 。 


| RPN | 
D 确定 前 景 背景 
iL] 推荐 候选 框 _| 


主干 网 络 特征 图 截取 候选 杠 


ROI Align 分 类 


Mask R-CNN 是 在 Faster R-CNN 基础 上 ， 通 
过 引入 并 行 掩 模 分 支 和 ROI Align 算 法 来 消除 取 
整 误 差 ， 实 现 精 度 提升 的 两 段 式 检 测 网 络 7 
因 能 实现 物体 掩 模 的 像素 级 输出 ， 常 被 作为 衡量 
其 他 网 络 优 劣 性 能 的 标准 ， 其 结构 如 图 4 所 示 。 
图 像 输入 后 ， 主 干 网 络 生 成 并 融合 具有 不 同 尺度 
和 语义 信息 的 特征 图 ， 区 域 建议 网 络 (Region 
Proposal Network，RPN) 和 ROI Align 层 则 负责 
查找 特征 图 中 最 佳 的 目标 候选 区 域 并 解决 特征 图 
谱 与 对 应 原 图 的 错位 问题 ， 最 后 通过 分 类 预测 实 
现 对 候选 区 域内 目标 类 别 、 位 置 及 掩 模 的 预测 。 


a a a; 


1 每 个 ROTI 需 执行 一 次 
m | A 
[rcx = 
| 
= m | 类 别 


图 4 Mask R-CNN 网 络 结构 图 


Fig. 4 Structure of Mask R-CNN network 


EfficientDet 是 单 阶段 目标 检测 模型 ,其 依据 
神经 结构 搜索 特征 金字 塔 网 络 (Neural Architec- 
ture Search Feature Pyramid Network, NAS-FPN ) 
的 神经 搜索 和 路 径 聚 合 网 络 (Path Aggregation 
Network,PANet) 的 双向 融合 思想 ,提出 了 能 够 快 
速 实现 多 尺度 特征 融合 的 加 权 双 向 特征 金字 塔 网 
络 (Bidirectional Feature Pyramid Network, BiF- 
PN), 从 而 实现 了 检测 精度 与 效率 的 显著 提升 "™。 


如 图 5 所 示 ，EfficientDet 结 构 主要 由 分 别 负 责 
尺度 特征 提取 、 融 合 以 及 目标 位 置 与 类 别 预测 的 
主干 特征 提取 网 络 、 加 强 特征 提取 网 络 和 预测 网 
络 组 成 。 

YOLOvS 继承 了 YOLOv4 的 模型 架构 ， 将 输 
入 图 像 划 分 为 SXS 个 网 格 ， 并 由 目标 中 心 所 在 
网 格 预 测 其 边界 框 位 置 、 分 类 概率 及 置信 度 ， 是 
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输入 图 像 piz 


基于 EfficientNet 的 主干 特征 提取 网 络 


1BiFPN 模 块 1 1 


的 有 效 特征 层 | 
1P1-P2 为 浅 层 的 特征 提取 层 | 
! DWConv Xk 为 k 个 深度 可 分 离 卷 积 | 
| 个 表示 下 采样 ;y 表示 上 采样 1 


输出 图 像 


图 5 EfficientDet 网 络 结构 


Fig. 5 Structure of EfficientDet network 


目前 表现 较 优 的 目标 检测 网 络 "”， 其 结构 如 图 6 
所 示 。 图 像 数 据 经 输入 端 预 处 理 后 ， 进 入 以 跨 阶 
段 局 部 网 络 (Cross Stage Partial Network， 
CSPNet) 和 Focus 为 架构 的 主干 网 络 中 进行 三 种 
尺度 的 籽粒 特征 提取 ， 并 送 入 以 特征 金字 塔 网 络 
(Feature Pyramid Network, FPN) 和 路 径 聚 合 网 


络 结构 为 主 的 Neck 模 块 中 进行 特征 聚合 ， 最 后 
进入 Head 模块 在 特征 图 上 使 用 锚 定 框 得 到 带 有 
置信 和 度 和 框 坐 标 信息 的 输出 结果 。 为 增强 对 庶 
挡 、 重 徐 日 标 籽 粒 的 检测 性 能 ， 试 验 中 采用 
GIOU_Loss 作 为 边界 框 的 损失 函数 ， 并 使 用 加 权 
非 极 大 值 抑制 算法 对 其 进行 筛选 。 


图 像 
图 6 YOLOvS 网 络 结构 


Fig. 6 Structure of YOLOvS network 


YOLOX 是 在 总 结 当 前 深度 学 习 领 域 多 项 研 
究 成 果 和 训练 技巧 的 基础 上 对 YOLOv3 进行 优化 
得 到 的 网 络 ””， 其 结构 如 图 7 所 示 。 模 型 内 部 主 
F W ég A Neck 模块 延续 了 YOLOv3 的 Dark- 
net53+SPP il FPN 架构 ， 并 对 输入 端 和 Head 模 块 
进行 了 改进 。 即 在 输入 端 采 用 Mosaic 和 Mixup 数 
据 增 强 策略 来 丰富 检测 物体 的 背景 ; 在 Head 模 
块 引 入 Decoupled head, Anchor-free, Multi posi- 
tives 和 SimOTA 等 操作 来 提高 模型 收敛 速度 与 计 
算 效率 ， 并 缓解 正 负 样本 的 不 平衡 问题 ， 实 现 全 


局 信息 下 的 最 优 样本 匹配 。 此 外 Decoupled head 
中 添加 的 交 并 比 (Intersection over Union, IoU) 
分 支 能 够 有 效 增强 预测 能 力 ， 使 得 预测 框 的 回归 
速度 更 快 、 精 度 更 高 。 

由 于 所 选 四 种 网 络 中 ，EfficientDet、YO- 
LOv5、YOLOX 均 有 不 同 的 模型 系列 ， 为 在 固定 
资源 限制 下 最 大 化 模型 检测 精度 与 效率 ， 试 验 中 
选取 EfficientDet-D5, YOLOvS-L 和 YOLOX-L 
作为 三 种 网 络 的 检测 模型 。 网 络 训练 的 初始 化 参 
数 设置 为 : 初始 学 习 率 0.003、 最 大 迭代 次 数 100 
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输入 端 


区 Decoupled Head 
Decoupled Head 


Decoupled Head 


图 7 YOLOX 网 络 结构 图 


Fig. 7 Structure of YOLOX network 


KK. Bat 0.9. batchsize H 4, fithak 4 Adam. 
由 于 Mask R-CNN 为 两 阶段 网 络 需 要 更 多 的 迭代 
次 数 来 实现 收 僵 ,依据 经 验 其 迭代 次 数 设置 为 
60,000 次 。 
2.2.3 评价 指标 

为 量化 分 析 网 络 模型 性 能 ， 本 研究 从 模型 复 
杂 度 、 检 测 效果 以 及 在 移动 端的 应 用 潜力 出 发 ， 
采用 目标 检测 的 标准 化 评价 指标 衡量 其 在 测试 集 
的 表现 ， 主 要 包括 平均 精度 (Average Precision, 
AP)、 模 型 参数 量 、 每 秒 10 亿 次 的 浮 点 运算 次 数 
(Giga Floating-Point Operations Per Second, 
GFLOPs), W (fs) 以 及 模型 尺寸 。AP 用 以 
度量 实际 检测 中 精度 P) 与 召回 率 (R) 的 综 
合 表 现 ， 其 计算 公式 如 下 : 


AP = P(R)dR (1) 


由 于 目标 检测 中 常用 IoU 度量 预测 框 与 真实 
框 的 重合 程度 ， 并 以 此 来 划分 预测 结果 的 正 负 
性 。 而 不 同 的 IoU AEST EA EKI P-R 曲线 进 
影响 最 终 的 AP 值 ， 因 此 为 综合 全 面 地 反应 模 
型 性 能 ,使 用 10 个 不 同 IoU MEL (0.50 线 性 递增 
至 0.95， 间 隔 为 0.05) 对 应 的 P-R 曲线 面积 的 平 
均值 来 表示 AP 值 。 
为 评估 不 同 网 络 的 玉米 籽粒 计数 性 能 ， 对 
180 幅 玉米 测试 集 图 像 检测 结果 进行 人 工 籽 粒 识 
别 统计 试验 与 评价 。 选 用 检测 准确 率 (Detection 
Accuracy, DA). 、 漏 检 率 (Miss-Detection Rate, 
MDR), 、 错 检 率 (False-Detection Rate, FDR) 、 
查 准 率 (Precision Detection Rate, PDR) LAF, 
值 作为 评价 计数 效果 的 指标 ， 其 计算 公式 如 下 。 
TP 
TP + FN 


DA x 100% (2) 


MDR = p Ew * 100% (3) 
FDR = zo X 100% (4) 
PDR = =F x 100% (5) 

22 <DA ER X 100% (6) 


其 中 ，TP 为 正确 检测 的 玉米 籽粒 数 ， 个 ; 
FP 为 错 检 的 玉米 籽粒 数 ， 个 ; FN 为 漏 检 的 玉米 
PERLE, To 
2.3 实验 配置 


图 像 处 理 硬件 平台 配置 为 : Intel (R) Core 
(TM) i5-10400F CPU @2.90 GHz 处 理 器 ，16 G 
内 存 ，1 TB 硬盘 ，11 GB NVIDIA GeForce GTX 
2080Ti GPU。 编 程 软件 为 Pycharm2020 社 区 版 。 
深度 学 习 框 架 为 Pytorch 1.6， 并 使 用 CUDA11.3 
和 cuDNN 8.2.0 作 为 深度 神经 网 络 的 并 行 计算 絮 
构 和 GPU 加 速 库 。 


3 结果 与 讨论 


3.1 网 络 模型 训练 


在 同一 实验 配置 条 件 下 ， 采 用 2.2.1 小 节 构 
建 的 玉米 籽粒 目标 检测 数据 集 对 所 选 Mask R- 
CNN, EfficientDet-D5, YOLOv5-L、YOLOX-L 
四 种 网 络 进行 训练 与 测试 。 模 型 训练 过 程 中 的 损 
失 值 变化 曲线 如 图 8 所 示 。 由 图 8 可 知 ， 各 网 络 
模型 对 玉米 籽粒 数据 集 均 具 有 较 强 的 拟 合 与 泛 化 
能 力 ， 且 损失 值 的 变化 趋势 基本 相同 。 即 在 训练 
初期 损失 快速 下 降 ， 中 期 震荡 小 幅 减 小 ， 后 期 基 
本 趋 于 稳定 ， 网 络 模 型 实现 收敛 。 模 型 的 快速 收 
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敛 得 益 于 Adam 优化 器 的 使 用 ， 其 具有 计算 高 
效 、 自 主 调整 学 习 率 以 及 不 受 梯 度 伸 缩 变 化 影响 
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迭代 次 数 /次 


(a)Mask R-CNN 
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图 8 四 种 目标 检测 网 络 的 训练 损失 曲线 


Fig. 8 Training loss curve of four object detection networks 


经 过 对 四 种 网 络 模型 拟 合 泛 化 能 力 确认 后 ， 
可 通过 对 比 模型 在 测试 集 上 的 整体 检测 性 能 来 得 
到 初步 的 最 优 模型 。 表 1 显示 了 四 种 网 络 的 性 能 
对 比 结果 。 整 体 而 言 ，YOLOv5 工 的 各 项 指标 值 
均 取 得 最 优 ， 其 AP 值 为 78.3%， 帧 率 为 55.55 fs, 
相 较 于 YOLOX-L、Mask R-CNN 和 EfficientDet- 
D5 分 别提 升 了 11.8 (28.53)、9.5 (46.7) 和 27.4 
(48.12) 个 百分点 ( 帧 数 )， 这 表明 YOLOv5-L 
能 够 更 快 地 提供 更 准确 的 检测 结果 。 网 络 自身 的 
结构 差异 导致 对 玉米 图 像 关 注 度 及 特征 学 习 能 
的 不 同 ， 是 造成 各 网 络 平均 精度 存在 差异 性 的 主 
要 原因 。 而 相 较 于 EfficientDet-D5 和 YOLOX-L， 
Mask R-CNN 的 AP 值 取得 最 优 可 能 与 其 先生 成 
候选 框 后 回归 分 类 的 两 阶段 检测 架构 有 关 ， 但 两 
阶段 精度 提升 带 来 的 计算 资源 的 消耗 使 得 其 识别 


速率 远 低 于 直接 进行 回归 分 析 的 单 阶段 网 络 。 当 
考虑 模型 复杂 度 及 移动 端 部 署 可 行 性 时 ，YO- 
LOv5-L 也 表现 出 了 极 大 的 潜力 ， 其 GFLOPs、 模 
型 尺寸 以 及 训练 时 长 分 别 为 最 大 值 Mask R-CNN 
的 37%、18.6% 和 5$.1%， 远 优 于 上 述 性 能 依次 递 
wk FX) EfficientDet-D5 和 YOLOX-L。 由 于 网 络 在 
移动 端的 部 署 限制 可 通过 扩展 内 存 等 多 种 方法 
解决 ， 但 模型 检测 效果 直接 影响 最 终 的 籽粒 计 
数 精度 与 效率 。 结 合 上 述 分 析 可 初步 判定 ， 四 
种 网 络 用 于 籽粒 检测 的 优 劣 顺序 为 : YOLOvV5- 
L, Mask R-CNN, YOLOX-L FI EfficientDet-D5 . 

为 了 解 输 入 图 像 的 哪些 区 域 使 得 最 优 模 型 
YOLOv5-L 做 出 了 最 终 的 识别 决策 ， 采 用 类 激活 
热力 图 的 方式 对 随机 选取 的 四 幅 图 像 各 区 域 的 作 
用 权重 进行 可 视 化 (图 9)。 不同 颜色 代表 不 同 的 
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表 1 四 种 网 络 模型 性 能 测试 结果 对 比 


Table 1 Performance comparison oftest results for four deep learning models 


模型 AP/% WRES) ”模型 参数 量 /MB GFLOPs 训练 时 长 /min 模型 尺寸 /MB 
Mask R-CNN 68.8 8.85 63.0 164.4 504 479.8 
EfficientDet-D5 50.9 7.43 33.4 135.8 360 128.7 
YOLOv5-L 78.3 55.55 47.0 115.6 26 89.3 
YOLOX-L 66.5 27.02 54.0 155.3 84 207.0 


权 值 ， 颜 色 越 深 权 值 越 大 。 由 图 9 可 知 ,不同 场 ” bE Teh WEDE, MEHR Re BA A A eK 
景 下 ， 模 型 均 是 通过 抑制 背景 区 域 , 重点 学 习 籽 ”籽粒 ， 色 泽 充 鳃 、 颗 粒 饱满 的 玉米 籽粒 对 类 别 决 
粒 区 域 相关 信息 来 实现 识别 决策 的 。 在 籽粒 区 域 。 策 的 贡献 率 更 高 ， 权 值 的 偏 狭 可 能 导致 权 值 较 小 
a te remains 的 籽粒 会 被 漏 检 或 误 检 。 

权 值 最 大 。 进 一 步 分 析 可 知 ， 相 较 于 红色 矩形 杠 


(a) 地 表 裸 露 (b) 地 表 半 遮挡 
(c) 地 表 全 遮挡 OFER 


图 9 YOLOv5-L 模 型 的 类 激活 热力 图 
Fig. 9 Class activation heatmap of YOLOv5-L model 


2 识别 结果 分 析 效果 ， 为 避免 籽粒 标签 影响 后 续 识 别 结果 的 观测 
与 统计 ， 对 标签 进行 了 去 除 ， 部 分 示例 如 图 10 
所 示 。 由 图 10 可 知 ，YOLOv5 工 模型 几乎 能 正确 
定位 出 不 同 场 景 下 的 所 有 玉米 籽粒 ， 当 视野 中 图 


基于 最 优 网 络 YOLOvV5-L 对 测试 集 图 像 进 行 
推理 ， 考 察 复杂 图 像 背景 中 玉米 籽粒 目标 识别 的 
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像 清晰 度 、 光 照 以 及 地 表 状 态 发 生变 化 时 也 能 
很 好 地 识别 出 来 ， 表 明 构 建 的 网 络 能 稳定 、 可 靠 
地 检测 玉米 籽粒 ， 对 外 部 环境 的 干扰 具有 较 强 的 
鲁 棒 性 。 但 对 于 不 同 的 场景 ,模型 也 表现 出 了 不 
同 的 性 能 。 地 表 裸 露 和 地 表 半 遮挡 场景 的 识别 准 
确 率 要 高 于 其 余 场景 。 相 较 于 后 两 者 ， 前 两 者 的 
微弱 损失 主要 以 干 症 籽 粒 的 误 检 为 主 ， 这 可 能 与 
其 籽粒 离散 且 遮 挡 物 较 少 使 得 模型 过 度 学 习 籽 粒 
特征 造成 过 拟 合 有 关 ， 并 从 侧面 证 实 了 3.1 节 中 
干 疙 籽粒 区 域 对 类 别 决 策 权 值 较 小 易 造成 误 检 的 


地 表 全 遮挡 wkw 地 表 裸 露 


将 粒 聚 集 


轻微 模糊 光照 充足 


结论 。 对 于 后 两 者 而 言 ， 其 损失 主要 以 籽粒 堆 县 
或 严重 遮挡 造成 的 漏 检 以 及 单 框 内 包含 两 个 籽粒 
的 误 检 为 主 ， 漏 检 原 因 可 能 是 对 类 别 决策 更 重要 
的 玉米 胚 及 其 胚 轴 区 域 被 遮盖 使 得 模型 失去 关键 
特征 信息 。 而 误 检 可 能 是 采用 非 极 大 值 抑制 算法 
过 滤 置 信 度 较 低 的 边框 时 间 值 设置 不 合理 造成 。 


进一步 分 析 发 现 ， 网 络 的 可 靠 性 可 能 与 籽粒 颜 
色 、 形 状 等 特征 及 其 自身 与 周围 区 域 的 强烈 过 渡 
对 比 使 得 模型 更 易 为 目标 识别 提供 更 多 有 用 信息 
有 关 。 


光照 正常 光照 不 足 


图 10 YOLOv5-L 模 型 对 不 同 场 景 中 玉米 籽粒 的 识别 结果 示例 


Fig. 10 Example of the detection results of YOLOv5-L model for corn kernels in different scenes 


3.3 计数 结果 对 比 


为 验证 YOLOvV5-L 网 络 在 籽粒 计数 中 的 可 千 
性 和 稳定 性 ， 采 用 检测 准确 率 、 漏 检 率 、 错 检 
率 、 查 准 率 和 已 值 等 指标 对 测试 集 进 行 整体 评 


估 ， 并 与 YOLOX-L、Mask R-CNN 和 Efficient- 
Det-D5 三 种 网 络 进行 比较 ， 对 比 结果 如 图 11 所 
示 。 由 图 11 可知， 四 种 网 络 的 检测 性 能 各 有 不 
同 。 对 于 检测 正确 率 和 漏 检 率 而 言 ，YOLOv5-L 
的 指标 值 最 优 分 别 为 90.7% 和 9.3%， 优 于 指标 值 
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依次 递减 的 Mask R-CNN , EfficientDet-D5, YO- 
LOX-L 三 种 网 络 $~19 个 百分点 。 而 考虑 错 检 率 
和 查 准 率 时 ， 该 排序 得 到 逆转 ， 即 YOLOv5-L 表 
现 最 差 ， 并 低 于 最 优 的 Mask R-CNN 网 络 7 个 百 
分 点 。 在 综合 指标 F 中 ， 该 排序 仅 互 换 了 YO- 
LOvS-L 和 Mask R-CNN 的 位 置 ， 且 两 者 的 指标 
值 分 别 为 91.1% 和 91.6%， 相 差 0.5%。 明 显 地 ， 
较 优 的 YOLOv5-L 和 Mask R-CNN 网 络 的 侧重 优 
势 不 同 。 而 实际 生产 中 ， 玉 米 籽 粒 损失 的 计数 应 
遵循 宁 错 勿 漏 的 原则 ， 以 避免 因 高 佑 联合 收割 机 
性 能 而 造成 更 大 的 收获 损失 。YOLOv5-L 在 查 准 
率 方面 的 劣势 可 能 是 由 干 疤 籽粒 的 大 量 错 检 引起 
的 ， 本 研究 虽 不 对 其 进行 计数 ， 但 干 首 籽 粒 的 检 
出 为 后 续 进 一 步 提 高 损失 产量 的 估计 精度 提供 了 
可 能 。 此 外 ，YOLOv5 工 在 检测 效率 、 模 型 复杂 
度 及 应 用 潜力 等 方面 的 综合 优势 也 为 解决 实际 生 
产 中 高 效 便捷 的 核心 需求 ， 为 加 速 研 究 商 业 化 提 
供 了 了 便利。 因此， 结合 上 述 分 析 可 知 ， 四 种 网 络 
籽粒 计数 的 优 劣 顺序 依次 为 YOLOv5-L、Mask 
R-CNN、 EfficientDet-D5 和 YOLOX-L。 


DA —™-YOLOvS-L 
—@- YOLOX-L 

-和 Mask R-CNN 
-$ EfficientDet-D5 


注 :DA、MDR、FDR、PDR、F 分 别 指 计数 的 检测 准确 率 、 漏 检 
率 、 错 检举 、 查 准 率 以 及 检测 准确 率 和 查 准 率 的 调和 平均 值 
图 11 不 同 网 络 的 籽粒 计数 性 能 对 比 


Fig. 11 Comparison of kernel counting performance of 
different networks 
为 明确 各 网 络 对 不 同 场景 类 型 的 籽粒 计数 性 
能 ， 对 任 一 网 络 与 场景 组 合 的 计数 指标 进行 统计 
( 表 2)。 明 显 地 ，YOLOv5-L 和 Mask R-CNN 网 


络 在 不 同 场景 下 的 DA、MDR AIF (Ae FAS 
网 络 ， 且 两 者 中 又 以 YOLOv5-L 的 DA 和 MDR 
为 最 优 。 而 YOLOvV5-L 远 低 于 其 余 三 种 网 络 的 
PDR 和 FDR， 是 造成 不 同 场景 下 〈 除 籽粒 聚集 
外 ) FE FAEH WR IRF Mask R-CNN 的 主要 原因 。 
整体 而 言 ， 不 同 场景 下 YOLOv5-L 和 Mask R- 
CNN 的 计数 性 能 均 较 佳 ， 旦 YOLOv5-L 在 含有 
籽粒 较 多 的 地 表 裸 露 、 地 表 半 遮挡 、 闻 粒 眼 集 三 
种 场景 下 的 高 DA 是 其 最 终 排序 优 于 Mask R- 
CNN 的 主要 原因 。 此 外 ， 四 种 网 络 均 呈 现 出 地 
表 全 遮挡 和 将 粒 聚 集 的 检测 性 能 远 低 于 其 余 场 景 
的 现象 为 下 一 步 的 研究 提供 了 方向 。 
表 2 不 同 场景 下 四 种 网 络 的 玉米 籽粒 计数 性 能 结果 


Table 2 Corn kernel counting performance results of four 


networks in different scenarios 


模型 
场景 指标 Mask R- Efficient- 
CNN Det-D5 


YOLOv5-L YOLOX-L 


DA 95.6 88.9 98.2 86.3 
MDR 4.4 jil 1.8 13.7 
地 表 
DR L.7 3.8 8.6 3.2 
裸露 
PDR 98.3 96.2 91.4 96.8 
F, 96.9 92.4 94.7 91.2 
DA 92.3 83.4 95.5 81.7 
MDR 77 16.6 4.5 18.3 
ee FDR i7 3.4 17 2.4 
PDR 98.3 96.6 92.3 97.6 
F, 95.3 89.5 93.8 88.9 
DA 84.0 56.4 76.1 61.5 
MDR 16.0 43.6 23.9 38.5 
地 表 全 
nin FDR 5.7 7.5 9.3 2.9 
遮挡 
PDR 94.3 92.5 90.7 97.1 
F, 88.9 70.1 82.8 75.3 
DA 74.0 72.0 83.3 54.7 
` MDR 26.0 28.0 16.7 45.3 
籽粒 
~ FDR 1.3 4.8 9.0 1.8 
聚集 
PDR 98.7 95.2 91.0 98.2 
F, 84.5 82.0 87.0 70.3 
WN 
4 4 论 


本 研究 以 田间 玉米 籽粒 检测 为 切 和 点， 依据 
构建 的 不 同 目标 检测 网 络 对 籽粒 的 识别 ， 实 现 了 
收获 过 程 中 玉米 籽粒 损失 计数 ， 验 证 了 深度 学 习 
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技术 在 该 项 任务 中 的 可 行 性 。 结 果 表 明 ， 四 种 模 
型 中 ，YOLOv5-L 的 性 能 最 佳 ， 其 计数 的 DA、 
MDR 分 别 为 90.7% 和 9.3%， 计 数 效 果 优 于 Mask 
R-CNN EfficientDet-D5 #1] YOLOX-L 网 络 ， 处 
理 速 度 为 55.55 Vs， 可 满足 籽粒 损失 的 实时 监测 
与 收割 质量 的 快速 评估 ， 因 此 可 作为 玉米 联合 收 
割 机 收获 损失 精准 控制 信息 系统 和 检测 装置 开发 
的 核心 算法 。 

研究 仍 存在 一 定 不 足 ， 未 来 的 工作 将 从 以 下 
几 方 面 展开 : (1) 针对 地 表 全 遮挡 和 籽粒 聚集 场 
景 较 高 的 漏 检 率 问 题 ， 拟 引入 注意 力 和 特征 增强 
机 制 对 模型 进行 改进 ， 以 进一步 提高 计数 精度 ; 
(2) 探究 籽粒 色泽 程度 、 干 瘦 程 度 以 及 自身 大 小 
等 变化 对 识别 的 影响 ， 开 发 检测 结果 的 二 次 判别 
算法 以 实现 错 检 率 的 降低 ; (3) 引入 更 丰富 的 数 
据 类 别 ， 如 不 同 模糊 度 、 亮 度 、 角 度 、 玉 米 品种 
等 ， 并 扩充 训练 图 像 集 ， 以 提高 模型 的 鲁 棒 性 与 
稳定 性 。 最 终 应 重视 收割 过 程 中 的 灰尘 问题 ， 并 
开发 相应 的 遮蔽 装置 ， 以 实现 收割 过 程 中 损失 的 
实时 检测 。 
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Infield Corn Kernel Detection and Counting Based on 
Multiple Deep Learning Networks 
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Abstract: Machine vision has been increasingly used for agricultural sensing tasks. The detection method based on deep learning 
for infield corn kernels can improve the detection accuracy. In order to obtain the number of lost corn kernels quickly and accu- 
rately after the corn harvest, and evaluate the corn harvest combine performance on grain loss, the method of directly using deep 
learning technology to count corn kernels in the field was developed and evaluated. Firstly, an RGB camera was used to collect 
image with different backgrounds and illuminations, and the datasets were generated. Secondly, different target detection net- 
works for kernel recognition were constructed, including Mask R-CNN, EfficientDet-D5, YOLOv5-L and YOLOX-L, and the 
collected 420 effective images were used to train, verify and test each model. The number of images in train, verify and test da- 
tasets were 200, 40 and 180, respectively. Finally, the counting performances of different models were evaluated and compared 
according to the recognition results of test set images. The experimental results showed that among the four models, YOLOv5-L 
had overall the best performance, and could reliably identify corn kernels under different scenes and light conditions. The aver- 
age precision (AP) value of the model for the image detection of the test set was 78.3%, and the size of the model was 89.3 MB. 
The correct rate of kernel count detection in four scenes of non-occlusion, surface mid-level-occlusion, surface severe-occlusion 
and aggregation were 98.2%, 95.5%, 76.1% and 83.3%, respectively, and F, values were 94.7%, 93.8%, 82.8% and 87%, respec- 
tively. The overall detection correct rate and F, value of the test set were 90.7% and 91.1%, respectively. The frame rate was 
55.55 f/s, and the detection and counting performance were better than Mask R-CNN, EfficientDet-D5 and YOLOX-L net- 
works. The detection accuracy was improved by about 5% compared with the second best performance of Mask R-CNN. With 
good precision, high throughput, and proven generalization, YOLOvS-L can realize real-time monitoring of corn harvest loss in 
practical operation. 

Key words: harvest loss; infield corn kernel; deep learning; kernel count; YOLOv5-L; YOLOX-L; Mask R-CNN; Efficient- 
Det-D5 


CE Siti www.smartag.net.cn 免费 获取 电子 版 全 文 ) 


